@怪人
2年前 提问
1个回答

数据分析常见的误区有哪些

007bug
2年前

需求不匹配

数据分析师的需求来源,通常是业务方。业务方最熟悉业务,了解自己的产品和业务,但是数据分析师最熟悉的是科学的统计分析方法,所以两者在沟通的过程中可能就会产生理解偏差。

数据需求通常是需求方根据自己对业务的理解,针对特定业务场景提出的,是用某种数据来验证或挖掘业务的潜在规律或价值。需求方有自己对业务的理解,TA将需要数据支持的地方,翻译给数据分析师,让数据分析师帮忙拉取相关数据。且不说这个过程中信息传递可能会存在衰减和丢失,拉取的数据能否真正解决需求方的问题,是否是解决问题的最佳方式,都很难说得清楚。这就很容易造成需求不匹配的情况,由于翻译带来的信息损耗,导致最终提供的数据和原始问题不匹配。

数据样本量不够

我们在分析某些特定的业务或用户行为时,可能存在相对关注度较小,用户使用很少的情况,或者是在提取数据的过程中,增加了很多的限制条件或者多种用户行为或属性进行交叉后,得到很少的用户样本。

对于这种数量小的数据样本得出的结果很有可能会出错,但是样本量多少才算够多呢?这个没有一个特定的数值,通常只能结合具体的场景进行分析。

存在选择性偏见或者幸存者偏见

统计学的另一大理论基石,便是中心极限定理。

简单描述下就是,总体样本中,任意一个群体样本的平均值,都会围绕在这个群体的整体平均值周围。

通常我们会按照这个原理,用随机抽样的方式,通过对样本的分析来估计整体。当然得出的结论会比较接近真实情况的。可是有一个问题是,我们在采集数据的过程中是否是真的随机。

混入脏数据

脏数据是指严重不合理或对于实际业务毫无意义的数据,通常是由程序bug、第三方攻击、网络传输异常等原因造成的。

这种数据的破坏性比较大,可能引发程序报错,对指标的准确度影响也较大。

指标不合理

数据分析的结果通常是各种各样的指标,每个指标都有自己的统计逻辑,反映的事物的某些方面的本质,在进行数据分析时,如果不能选择正确的指标,也可能会走入误区,从而得出错误的结论。

分析有错误

数据分析的过程很复杂,稍微不细心就有可能会出现数据结果偏差较大的情况。

推导不严谨

有了分析结果,通常还需要我们基于对业务的理解和对用户行为模式的认知,来推导出最后的结论或总结出规律。这个过程中,如果逻辑不严谨,也可能会出现误判的情况。